Amazon Sustainability Data Initiative のデータを Amazon SageMaker で取り込んで分析やシミュレーションを行うワークショップに参加しました #AWSreInvent
こんにちは、製造ビジネステクノロジー部の若槻です。
Amazon は持続可能性の取り組みの一環として Amazon Sustainability Data Initiative (ASDI) というオープンデータセットとツールのコミュニティに対する提供を行っています。
データセットは下記でホストされています。
今回、AWS re:Invent 2024 でこの ASDI のデータを Amazon SageMaker で取り込んで分析やシミュレーションを行うワークショップセッションに参加してきたので、その内容をレポートします。
セッション概要
セッション概要(引用)は下記の通りとなります。
SUS302-R | Sustainable urban spaces [REPEAT]
Air quality and heat risks pose major threats to human and environmental health and safety. According to an Atlantic Council study, there are currently more than 8,500 deaths annually associated with daily average temperatures above 90 degrees Fahrenheit (32 degrees Celsius), and according to the World Health Organization, ambient air pollution leads to an estimated 4.2 million deaths per year. In this workshop, you use Amazon SageMaker to ingest data from the Amazon Sustainability Data Initiative (ASDI) and uncover patterns in weather, air quality, and temperature; understand risks to urban areas; and simulate solutions that reduce risk to communities. You must bring your laptop to participate.
(日本語訳)
空気の質と熱のリスクは、人間と環境の健康と安全にとって大きな脅威となります。アトランティック カウンシルの調査によると、現在、毎日の平均気温が華氏 90 度 (摂氏 32 度) を超えることに関連して、年間 8,500 人以上が死亡しており、世界保健機関によると、大気汚染により年間 420 万人が死亡していると推定されています。このワークショップでは、Amazon SageMaker を使用して Amazon Sustainability Data Initiative (ASDI) からデータを取り込み、天気、空気の質、気温のパターンを明らかにし、都市部へのリスクを理解し、コミュニティへのリスクを軽減するソリューションをシミュレートします。参加するには、ラップトップを持参する必要があります。
セッションのさらなる詳細情報はこちら
- Speaker
- Guyu Ye, Sustainability Solutions Architect, Amazon Web Services
- Pauline Ting, AI/ML Specialist, Amazon Web Services
- Date:
Tue, December 3
- Time:
1:30 AM - 1:30 PM PST
- Location:
Wynn | Upper Convention Promenade | Cristal 1
- Session types:
Workshop
- Topic:
AI/ML
- Area of interest:
Sustainability
- Level:
300 – Advanced
レポート
環境リスクの分析
まずは ASDI プログラムを通じて公開されているデータセットを SageMaker Notebook で取り込んで、都市部(ニューヨーク市)の環境リスクの分析を行います。
ニューヨーク市の地理的境界データセットをサイトからダウンロードします。
ダウンロードしたデータセットを Notebook にアップロードし、読み込みます。
米国の地球観測データである Landsat の地球表面データセットをサイトから Notebook に直接インポートして読み込みます。
読み込んだ 2 つのデータセットをマージすることにより、都市部の気温分布を可視化することができました。湾岸部の地表面温度 (Land Surface Temperature: LST) が特に高温となっている傾向が見て取れますね。
シミュレーション
続いてここまでで作成したデータセットを利用して環境リスクのシミュレーションに利用可能なデータの準備を行います。ワークショップ環境で予め作成済みの下記構成を利用します。
SageMaker Notebook で作成した時空間資産カタログ (STAC) アイテムを S3 バケットにエクスポートしたら、Step Functions Distributed Map を呼び出して STAC アイテムを効率的に処理します。処理されたデータを S3 バケットに保存し、SageMaker でシミュレーションに利用可能とします。
この手順で面白いと感じたのは、SageMaker Notebook 上で Python スクリプトで呼び出した Step Functions の実行の進捗状況が Notebook 上でリアルタイムに表示されることです。
実行が成功した様子です。ステートマシンのコンソールを開かなくても実行の進捗状況が確認できるのは便利ですね。
一応 Step Functions のコンソールから実行状況を確認すると、すべての分散実行が成功していますね。
処理されたデータを使用して教師あり学習によりトレーニングをしてモデルを作成します。植生の分布状況を示す NDVI (Normalized difference vegetation index) を増加させたデータをモデルに適用したら、地表面温度が低下する傾向が見られました。
おわりに
Amazon Sustainability Data Initiative のデータを Amazon SageMaker で取り込んで分析やシミュレーションを行うワークショップセッションに参加してきたので、その内容をレポートしました。
ASDI でどんなデータが提供されているのかと、Amazon SageMaker でそれらデータを活用して効率的に分析やシミュレーションを行えることを学ぶことができました。
以上